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摘要 : [目的 /意义 ] 针 对 中 文 专利 候选 术语 选取 方法 存在 需要 对 不 同 的 数据 集 分 别 制定 不 同 的 模式 匹配 
规则 、 专 利 术 语 抽 取 准 确 性 不 高 等 问题 ,本 文 提出 基于 依存 句法 分 析 的 中 文 专利 术语 选取 方法 ,以 提高 中 文 专 
利 术 语 抽 取 准 确 性 。[ 方 法 /过 程 ] 主 要 包括 依存 句法 分 析 、 剪 枝 、 生 成 依存 子 树 等 三 个 主要 步骤 。 首 先 对 中 文 
专利 进行 依存 句法 分 析 , 得 到 依存 树 , 对 依存 树 进行 前 枝 , 去 除 不 符合 要 求 的 依存 关系 ,生成 依存 子 树 ,从 中 选 
取 连 续 词 串 作 为 候选 术语 ,以 抽取 中 文 专利 术语 。[ 结果 /结论 ] 实验 结果 表明 ,与 已 有 的 中 文 专利 候选 术语 选 
取 方 法 相 比 ,本 文 提出 的 基于 依存 句法 分 析 的 中 文 候 选 术语 选取 方法 能 够 有 效 地 提高 中 文 专利 术 语 抽 取 的 准 
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依存 句法 分 析 ”中 文 候选 术语 选取 


专利 文献 蕴含 着 丰富 的 各 个 领域 问题 的 解决 方 
胜 \ 有 效 的 专利 文献 分 析 能 够 判断 领域 技术 热点 .识别 
领域 核心 技术 ,预测 领域 技术 发 展 趋势 ,帮助 研发 人 员 
从 下 获得 启发 与 借鉴 ,从 而 缩短 创新 设计 时 间 .节约 创 
新 煞 计 经 费 。 其 中 ,专利 文献 中 的 术语 为 专利 文献 分 
析 乌 供 了 结构 化 知识 单元 ,体现 和 承载 了 专利 文献 的 
技术 信息 ,成 为 诸多 专利 文献 分 析 的 关键 组 成 部 分 , 因 
此 ,如 何 有 效 地 从 专利 文献 中 自动 抽取 术语 是 专利 分 
析 中 重要 的 研究 内 容 。 

目前 ,专利 术语 抽取 方法 通常 包括 候选 术语 选取 
与 候选 术语 排序 两 个 步骤, 即 首先 从 语 料 中 选取 候选 
术语 ;然后 利用 统计 信息 计算 候选 术语 成 为 术语 的 可 
能 性 ,按照 可 能 性 的 高 低 进行 排序 ,满足 一 定 要 求 的 候 
选 术语 则 被 认定 为 术语 。 其 中 ,针对 中 文 专利 术语 抽 
取 任 务 ,通常 采用 词性 模式 匹配 方法 选取 候选 术语 ,如 
“形容 词 + 名 词 " “动词 + 名 词 "等 模式 ,以 选取 中 文 
专利 候选 术语 。 但 这 种 方法 主要 存在 2 个 问题 :@ 针 


对 不 同 的 中 文 专利 文本 集 需 要 人 工 定义 不 同 的 匹配 规 
则 ,实现 难度 较 大 ;@ 在 选取 正确 候选 术语 的 同时 也 可 
能 引入 过 多 的 非 术 语词 串 , 例 如 ,依照 “动词 + 名 词 ” 
模式 ,虽然 可 以 正确 地 选取 “氧化 石墨 烯 ” 等 候选 术 
语 , 但 是 也 引入 “添加 粉末 ”等 非 术 语词 串 。 

依存 句法 分 析 通 过 语句 单位 内 词语 间 的 依存 关系 
揭示 词语 间 的 语义 修饰 关系 ,进而 实现 对 语义 的 理解 ， 
可 以 较为 有 效 地 弥补 单纯 依靠 词性 手段 难以 触及 深层 
语义 关系 的 不 足 。 因 此 ,本 文 首次 将 依存 句法 分 析 引 
入 中 文 候选 术语 选取 研究 之 中 ,提出 基于 依存 句法 分 
析 的 中 文 专 利 候选 术语 选取 方法 ,以 提高 中 文 专利 术 
语 抽 取 的 准确 性 。 实 验 结果 表明 ,与 已 有 的 中 文 专利 
候选 术语 选取 方法 相 比 ,本 文 提 出 的 基于 依存 句法 分 
析 的 中 文 候选 术语 选取 方法 能 够 有 效 地 提高 中 文 专利 
术语 抽取 的 准确 性 。 


2 相关 研究 


2.1 术语 抽取 
术语 指 某 一 专业 知识 活动 领域 中 一 般 (具体 或 抽 
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象 ) 理论 概念 ,是 专业 领域 知识 系统 中 的 重要 组 成 
部 分 ,传达 了 大 量 的 领域 知识 。 通 过 对 术语 的 了 解 可 
把 握 一 门 专业 领域 技术 的 精 散 所 在 。 术 语 抽取 是 指 从 
文本 中 自动 发 现 术语 的 过 程 。 

目前 ,术语 抽取 方法 可 分 为 无 监督 方法 和 有 监督 


在 于 ,词性 模式 匹配 通过 定义 更 加 复杂 的 匹配 模式 。 
其 优点 是 能 够 针对 中 文 文本 特点 ,指定 有 针对 性 的 匹 
配 规则 ,因此 这 种 方法 是 目前 中 文 候选 术语 选取 的 主 
流 方 法 之 一 。 但 是 该 类 方法 存在 需要 针对 不 同 中 文 数 
据 集 人 工 定义 不 同 匹配 规则 在 选取 正确 候选 术语 的 


方法 两 大 类 。 无 监督 方法 通常 利用 语言 学 与 统计 学 相 
结合 的 方法 ,从 文本 集中 抽取 术语 ,具有 较 少 人 工 干 
预 较 强 的 适用 性 和 一 致 性 等 优点 ;有 监督 方法 采用 机 
器 学 习 方 法 ,如 最 硕 模型 ”、 条 件 随机 场 ““ 等 , 通 
过 学 习 训 练 文 本 特征 ,以 抽取 术语 。 有 监督 方法 能 

弥补 无 监督 方法 无 法 识别 低频 术语 的 缺陷 ,方法 抽取 
准确 率 和 召回 率 较 高 ,但 需要 大 规模 人 工 标注 语 料 作 
为 训练 数据 ,对 训练 语 料 的 规模 与 质量 要 求 较 高 ,并 


同时 也 可 能 引入 过 多 非 术 语词 剃 等 问题 。 
2.1.2 修 选 术语 排序 候选 术语 排序 主要 使 用 术语 
性 (Termhood) 和 单元 性 ( Unithood ) 度量 候选 术语 成 为 
术语 的 可 能 性 。 
术语 性 从 术语 的 隶属 度 出 发 ,衡量 一 个 候选 术语 
与 特定 领域 的 相关 程度 。 常 用 的 统计 量 有 词 频 ”和 C 
-value | 及 其 变 体 等 方法 。 其 中 , 词 频 方法 根据 候选 术 
语 在 语 料 集中 出 现 的 频次 度量 候选 术语 的 领域 相关 程 


且 有 监督 方法 还 不 成 熟 ,需要 进行 更 多 的 尝试 与 验 
证 襄 。 目 前 专利 文献 没有 针对 性 的 .完备 的 、 大 规模 标 
语 料 , 且 随 着 科技 的 快速 发 展 , 大量 新 术语 不 断 沁 
下 充 监督 方法 可 以 在 极 低 人 工 干 预 下 抽取 术语 ,是 克 
及 禹 监督 方法 标注 语 料 获 取 困 难 的 有 效 途径 之 一 。 因 
些 , 李 文 着 重 研究 使 用 无 监督 方法 抽取 专利 术语 。 
无 监督 方法 虽然 很 多 ,但 通常 遵循 * 先 候选, 再 排 
启 的 流程 , 即 ,候选 术 语 选取 和 候选 术语 排序 两 个 步 
又 以 下 分 别 介绍 这 两 个 步 又 。 
2 候选 术语 选取 ”总 的 来 说 ,候选 术语 选取 方法 
可 芬 为 n-gram 过 滤 (n-gram filtering) ”名 词 短语 分 
堪 (@P -chunking)" 和 词性 模式 匹配 (POS tag pat- 
te 等 三 种 方法 。 
“三 n-gram 过 滤 通常 先 去 除 停 用 词 语义 信息 较 少 的 
词 (如 助词 .语气 词 等 ) 或 者 人 工 选择 构 词 能 力 较 差 的 
词 ,得 到 文本 捉 片段 ,然后 进行 遍历 得 到 所 有 n 元 连续 
词语 序列 ,按照 一 定 规则 选 出 符合 要 求 的 多 元 词组 ,如 
保留 词 频 高 的 词语 。 这 种 方法 具有 实现 简单 且 灵 活 可 
设置 多 元 词组 长 度 等 优点 ,但 也 存在 非 术语 词 串 过 多 
从 而 影响 术语 抽取 准确 率 的 问题 。 

因 术 语 通常 为 名 词性 短语 , 故 名 词 短语 分 块 方法 
从 词性 标注 后 的 文本 序列 中 识别 出 名 词 短语 。 名 词 短 
语 的 词性 规则 通常 遵循 特定 的 排列 模式 ,如 “形容 词 + 
名 词 "模式 。 因 此 ,通常 采用 模式 匹配 结合 句法 规则 来 
识别 名 词 短语 。 这 种 方法 简单 快速 ,但 由 于 中 文 名 词 
短语 中 修饰 词 的 词性 规则 较为 复杂 ,不 仅仅 局 限于 形 
容 词 和 名 词 ,因此 ,这 种 方法 往往 应 用 于 英文 术语 抽 
取 。 

词性 模式 匹配 的 基本 思想 与 名 词 短语 分 块 相同 ， 
均 默认 术语 的 词性 序列 遵循 特定 排列 模式 。 不 同 之 处 


110 


度 。 但 词 频 方法 对 低频 术语 的 抽取 没有 引起 足够 的 重 
视 。C-value 方法 为 词 频 方法 的 改进 , 它 考虑 了 短语 的 
幅 套 性 ,统计 信息 包括 候选 术语 的 词 频 、 词 长 ,包含 当 
前 候选 术语 的 更 长 候选 术语 的 频次 和 个 数 。C -value 
方法 简单 .适用 性 强 , 具 有 语言 和 领域 无 关 性 。 然 而 ,C 
-value 方法 仍然 以 候选 术语 频次 为 主要 依据 ,不 能 有 效 
地 过 滤 一 些 高 频 非 术语 词 串 以 及 正确 抽取 低频 术语 。 
针对 这 些 问 题 , 一 些 人 研究 尝试 对 C -value 方法 进行 改 
进 。 如 PCC -value'" 将 候选 术语 的 文档 频次 融入 C- 
value 计算 之 中 ;STC -value' 利用 与 候选 术语 具有 相同 
术语 部 件 的 相似 候选 术语 信息 ,以 提高 C-value 术语 抽 

单元 性 度量 候选 术语 结构 的 稳定 程度 , 即 候选 术 
语 内 部 各 组 成 部 分 之 间 的 结合 强度 。 其 中 ,互信 息 是 
一 种 常用 的 单元 性 指标 。 互 信息 通过 计算 候选 术语 中 
各 词 成 分 的 共 现 频次 来 衡量 这 些 成 分 之 间 的 依赖 程 
度 ' …” 。 互 信息 方法 能 够 较 好 地 反映 字 串 之 间 的 结合 
强度 ,但 会 过 高 估计 低频 且 总 是 相 邻 出 现 的 字 串 间 的 
强度 ,一些 研究 提出 PMI"" 以 及 EMI'” 等 互信 息 
变 体 方法 ,以 改进 互信 息 方法 过 高 评估 低频 候选 术语 
强度 的 问题 。 
2.2 ”依存 旬 法 分 析 

依存 句法 分 析 的 基本 假设 是 :句法 结构 本 质 上 包 
含 词 对 间 的 关联 ,一 个 词 支配 另 一 个 词 ,这 种 支配 与 被 
支配 的 关系 被 称 为 依存 关系 。 依 存 句法 分 析 认 为 语句 
中 核心 动词 是 支配 其 他 词语 的 中 心 成 分 ,而 它 本 身 却 
不 受 其 他 任何 词语 的 支配 ,所 有 受 支配 词语 都 以 某 种 
依存 关系 从 属于 支配 词 。 依 存 句 法 分 析 通 过 分 析 语 句 
中 词语 之 间 的 依存 关系 揭示 其 句法 结构 ,发 现 语句 语 
法 特征 和 语义 联系 。 根 据 依 存 句 法 分 析 公 理 ”” ,在 
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一 个 完整 的 语句 中 ,任何 一 个 词语 都 不 能 依存 于 2 个 
或 2 个 以 上 的 其 他 词语 ,所 有 的 语义 联系 相互 交织 所 
结果 将 语句 的 线性 结构 层次 化 ,构造 成 为 一 棵 依存 树 ， 
从 而 反映 出 句子 中 词语 间 的 语义 修饰 关系 , 且 与 成 分 
的 物理 位 置 无 关 。 依 存 句 法 分 析 具 有 表示 简洁 ,存储 
空间 小 .可 计算 性 好 ,中 心 驱 动 .词性 依赖 较 小 .依存 关 
系 具有 普遍 性 等 特点 , 较 适 合 灵活 的 中 文 词 序 “。 依 
存 句法 分 析 本 身 没有 规定 要 对 依存 关系 进行 分 类 ,但 
为 了 丰富 依存 结构 表达 的 句法 信息 ,在 实际 应 用 中 ,一 
般 会 对 依存 树 的 边 加 上 不 同 的 标记 。 其 中 ,哈尔滨 工 
业 大 学 信息 检索 研究 室 语言 技术 平台 LTP ( Language 
Technology Platform) “的 依存 关系 标注 体系 具有 依存 
关系 定义 关系 数量 较 少 .易于 理解 等 优点 。 
忌 由 于 依存 句法 分 析 通 过 分 析 语句 中 词语 间 的 依存 
关 双 揭示 词语 间 的 语义 修饰 关系 ,可 以 反映 长 距离 的 
摸 配 信息 并 与 词语 的 物理 位 置 无 关 ,因此 依存 句法 分 
酉 袜 广 泛 应 用 于 情感 分 析 '“-2 实体 关系 抽取 、 
名 吉 问答 袜 -的 .触发 词 识别 -六 等 自然 语言 处 理 任 
算 之 中 。 例 如 ,在 情感 分 析 相 关 研 究 中 , 邓 淑 币 等 * 
提示 基于 句法 依存 规则 以 及 词性 特征 的 情感 词 识别 模 
王 测 用 8 种 关系 模式 作为 情感 词 匹配 候选 模板 ,以 识 
别 副 东 商 城 iPhone 6s 手机 评论 中 的 情感 词 。 在 实体 
关 和 邓 抽 取 相 关 研 究 中 , 李 明 耀 等 5 针对 中 文 语法 错 综 
馈 开 , 表 达 方 式 灵活 ,语义 多 样 等 固有 性 质 的 限制 , 提 
号 种 开放 式 中 文 实体 关系 抽取 方法 ,通过 依存 句法 
分 锋 的 依存 关系 判断 语句 是 否 为 动词 亩 语句 。 在 自动 
间 先 相关 研究 中 , 刘 雄 等 "将 依存 树 中 边 上 的 依存 关 
系 标签 改 为 表征 问 句 分 解 信息 的 分 解 标 签 ,进而 生成 
子 问 句 ,以 增强 问答 系统 理解 复合 事实 型 问 句 的 能 
在 触发 词 识 别 的 相关 研究 中 ,高 源 等 中 利用 依存 句法 
分 析 , 提 出 触发 词 -实体 描述 对 的 方法 ,以 提高 触发 词 
的 抽取 召回 率 。 

综 上 所 述 ,总 的 来 说 ,术语 抽取 研究 主要 集中 于 候 
选 术语 排序 算法 改进 中 ,对 候选 术语 选取 研究 关注 过 
少 。 特 别 是 中 文 候选 术语 选取 方法 存在 制定 模式 匹配 
规则 困难 、 需 要 针对 不 同 的 数据 集 分 别 制定 不 同 的 模 
式 匹 配 规则 专利 术语 抽取 准确 性 不 高 等 问题 。 依 存 
名 法 分 析 通过 语句 内 词语 间 的 依存 关系 揭示 词语 间 的 
语义 修饰 关系 ,进而 实现 对 语义 的 理解 ,可 以 较为 有 效 
地 弥补 单纯 依靠 词性 手段 难以 触及 深层 语义 关系 的 不 
足 ,因此 ,本 文 提出 一 种 基于 依存 句法 分 析 的 中 文 专利 
候选 术语 选取 方法 。 


3 基于 依存 句法 分 析 的 中 文 专利 候选 


术语 选取 方法 

本 文 引 入 依存 句法 分 析 ,形成 基于 依存 句法 分 析 
的 中 文 候选 术语 选取 方法 。 方 法 主要 包括 依存 句法 分 
析 ( 第 3.1 节 )、 航 校 (第 3.2 节 )、 生 成 依存 子 树 (第 
3.3 节 ) 等 三 个 主要 步骤 。 首 先 对 收集 的 中 文 专利 文本 
集 进 行 依存 句法 分 析 , 得 到 依存 树 , 对 依存 树 进 行 剪 
枝 ,去 除 不 符合 要 求 的 依存 关系 ,生成 依存 子 树 , 从 中 
选取 连续 词 串 作为 候选 术语 ,得 到 可 以 进行 候选 术语 
排序 的 候选 术语 集 ,以 抽取 中 文 专利 术语 。 
3.1 依存 句法 分 析 

依存 句法 分 析 通 过 分 析 语 句 中 词语 之 间 的 依存 关 
系 ,揭示 语句 的 句法 结构 。 其 中 ,依存 关系 可 以 使 用 有 
向 弧 表 示 ,由 支配 词 指向 其 被 支配 词 ,并 且 依 存 句 法 分 
析 认 为 语句 中 的 支配 者 是 核心 动词 。 根 据 依存 语法 公 
理 , 在 一 个 完整 的 语句 中 ,依存 句法 分 析 将 语句 的 线性 
结构 层次 化 ,构造 成 为 依存 树 。 本 文 据 此 给 出 依存 树 
的 定义 。 

定义 工 依存 树 ) :依存 树 记 为 T = ( V, A, R)， 
其 中 V 为 结 点 集合 ,表示 语句 中 词语 ;A 为 有 向 弧 集 
合 ,表示 词 语 间 依存 关系 , 弧 的 出 发 端 为 依存 关系 的 文 
配 词 , 弧 的 指向 端 为 依存 关系 的 被 广 配 词 ;R 为 依存 树 
根 结 点 ,为 语句 核心 动词 ,T 满足 : 

(DR 结 点 的 入 度 为 0; 

@ 除 R 之 外 结 点 的 入 度 为 1; 

@ 从 R 到 任 一 结 点 有 一 条 有 向 通路 。 
图 1 为 使 用 哈尔滨 工业 大 学 语言 技术 平台 发 布 的 
依存 句法 分 析 器 ,对 语句 “本 发 明 主 要 用 于 制备 四 氧化 
铁 负 载 氮 摊 杂 石墨 烯 复 合 材 料 ” 与 “本 发 明 涉及 一 种 
共 掺 杂 吧 吡咯 材料 及 其 制备 方法 和 应 用 ”进行 依存 句 
法 分 析 之 后 得 到 的 依存 树 TI 和 T2。 其 中 ,Root 分 别 
指向 两 个 语句 的 核心 动词 “用 于 ”和 “涉及 ” , 弧 上 标注 
表明 依存 关系 的 类 别 , 主 要 依存 关系 类 别 见 表 1。 结 
点 下 的 字母 表示 词性 ,本 文 主要 使 用 的 词性 见 表 2。 
由 图 1 可 见 , 依 存 句法 分 析 在 分 词 的 基础 上 给 出 了 词 
语 间 关 系 以 及 语句 的 浅 层 句法 结构 ,这 为 中 文 专利 候 
选 术 语 选取 提供 了 依据 。 
3.2 前 枝 

由 于 中 文 专利 术语 一 般 为 名 词 短 语 ,依存 树 中 一 
些 依 存 关系 通常 不 会 出 现在 名 词 短语 之 内 ,这 些 关 系 
会 引入 大 量 噪声 ,影响 候选 术语 选取 的 结果 ,因此 ,本 
文 提出 对 依存 树 进 行 前 枝 , 目 的 是 在 选取 候选 术语 之 
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Pa po eS Nt 


Root 本 “办 Ea 下 人 本 氮 。 挫 杂 石墨 烯 纳米 可 宰 笠 


r n V n n 
(a) 依存 树 T， 
BV. 
FN YE 
Root ye 3 涉 涉及 掉 末 a st 其 全 用 
(b) 依存 树 T， 


1 依存 树 示例 


表 1 依存 关系 前 尽量 减少 无 用 信息 。 对 表 1 中 的 依存 关系 进行 分 析 
关系 类 型 关系 标记 样 例 后 发 现 , 中 文 专利 术语 内 词 的 关系 主要 为 定 中 关系 
主 请 关系 BW 我 送 她 一 束 花 (我 一 送 ) (ATT) 、 并 列 关系 (C00) . 左 附加 关系 (LAD ) 和 右 附 加 
动 宾 关系 VOB 我 送 她 一 束 花 ( 送 一 花 ) 、 de ， es 

地 宾 关系 10B 我 送 她 一 束 花 ( 送 一 她 ) 关系 (RAD) 等 四 类 依存 关系 。 此 外 ,中 文 专利 术语 一 
入 时 宾语 FOB 他 什么 书 都 读 ( 书 一 读 ) 般 由 包含 丰富 领域 信息 的 词语 构成 ,通常 不 包含 停 用 
es ee We hd 词 ,因此 本 文选 取 哈尔滨 工业 大 学 停 用 词 表 和 人 工 选 
G 风 Hh 关系 ADV 非常 美丽 ( 非常。 美丽 ) 取 的 若干 典 型 中 文 专利 停 用 词 , 如 ， 发 明 ” “方法 "等 
CGI 结 构 CMP 做 完了 作业 (做 一 完 ) 作为 停 用 词 。 基 于 以 上 分 析 , 本 文 提出 两 个 剪 枝 规则 
GB 关系 CO00 大 山 和 大 海 (大 山 一 大 海 ) 

众 宾 关 系 POB 在 贸易 区 内 (在 一 内 ) 对 依存 树 进 行 冯 校 : 

在 附加 关系 LAD 大 山 和 大 海 ( 熏 大海 ) 剪 校规 则 1: 去除 定 中 关系 (AIT) 并 列 关 系 
加 关系 RAD 孩子 们 (孩子 一 们 ) hy i ， 
人 (C00) , 左 附加 关系 (TAD) 和 右 附 加 关系 CRAD) 之 外 

后 的 其 他 依存 关系 ; 
GN 表 2 主要 词性 剪 枝 规 则 2: 去 除 包含 停 用 词 的 依存 关系 。 
之 记性 词性 标记 词性 词性 标记 图 2 为 对 图 1 中 的 依存 树 Tl 和 T2 进行 剪 枝 , 其 
SI 。 0 中 灰色 的 弧度 表示 根据 剪 村 规则 1 和 剪 枝 规则 2 去 除 
(Ca 吕 连词 . 的 依存 关系 ,灰色 词语 表示 停 用 词 。 

形容 词 a 后 级 k 
三 副词 d 量词 q 

代词 r 助词 u 


HED. 
SBV VOB- 
aATIT 4-ADV、U_VOB SAE SBV ATT AT 


Root 本 发 明 主要 a i re A 人 Be 0 复合 材料 


¥ n d n 
(外 TT 前 梳 
VOB 
VOB 
HED COO 
SBV ATT. 
LAD 
A 有 全 了 De 0 
Root 本 发 明 涉及 一 种 共 茵 杂 聚 吡 ” 咯 材料 及 其 tt 方法 和 应 用 
Vv m 可 .得 V Vv u n © 和 由 通 V 
旧 了 T 剪 枝 


2 依存 树 剪 枝 


3.3 ”生成 依存 子 树 R) , 则 依存 子 树 T = (V', A', R') 满 足 如 下 条 件 : 
由 于 中 文 术语 通常 为 以 名 词 或 动词 为 核心 ,其 他 DV'CV, A'ChA, RE 

各 种 成 分 修饰 的 短语 。 因 此 ,本 文 提出 依存 子 树 的 概 @) R' 结 点 的 和 人 度 为 0; 

念 ,以 选取 中 文 候选 术语 ,其 定义 如 下 : (3 除 R' 之 外 结 点 的 入 度 为 1; 
定义 2( 依 存 子 树 ) :给 定 一 棵 依存 树 T = ( V, A， 9 从 R' 到 任 一 节点 有 一 条 有 向 通路 ; 
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@ R' 为 名 词 或 动词 等 实 词 。 
根据 定义 2, 对 图 2 剪 枝 后 的 依存 树 T 和 T, 进行 
筛选 ,生成 如 图 3 所 示 的 依存 子 树 Tj, ~ Ts 和 TT,, ~ 
T, 3:。 其 中 ,由 于 后 续 欲 比较 的 候选 术语 抽取 方法 均 选 
取 大 于 1 个 词 的 词 串 构成 的 短语 ,因此 ,本 文 仅 选取 1V 
1 >1 的 依存 子 树 , 即 至 少 包含 2 个 词 。 


AT A A AT Amr 


2 
四 转化 铁 负载 氮 铁 负 载 氢 ”四 氧化 铁 负载 氮 
m nv n nv n m n Y n 
Ti2 Ts Ti4 Tis 
ATT、 ATT~、、 
石墨 烯 ” 纳米 复合 材料 石 攻 所 本 和 SH 
n n n n n 
Tis 二 ey 
(aiT' 的 依存 子 树 
> 一 AT 
LO KRADA 2 RADA C00~、 
人 系 史 咯 材料 聚 吡 咯 材料 应 用 
[ae) 1 a T22 人 
©O (b) TT 的 依存 子 树 
© 
~ 图 3 依存 子 树 示例 
©O 
CO 
ON 


根据 生成 的 依存 子 树 ,选取 连续 词 串 作为 中 文 专 
利 候选 术语 。 例 如 ,图 3(a) 的 依存 子 树 T1,1 为 非 连 
续 词 串 , 因 此 舍弃 ,而 剩余 的 依存 子 树 T1,2 ~ T1 ,8 
均 为 连续 词 串 , 因 此 生成 7 个 候选 术语 ;图 3(b) 中 的 
依存 子 树 T2,1 和 T2,2 中 的 词 串 为 连续 词 串 ,T2 ,3 
的 词 串 为 不 连续 词 串 ,所 以 舍弃 ,最 终生 成 2 个 候选 
术语 。 

表 3 与 表 4 给 出 了 使 用 n-gram'" 、 名 词 短 语 分 
块 \ 词 性 模式 匹配 名 词 ' 和 本 文 方法 对 语句 “本 发 
明 主要 用 于 制备 四 氧化 铁 负 载 氮 掺 杂 石 墨 烯 复合 材 
料 ” 和 语句 “本 发 明 涉及 一 种 共 摊 杂 聚 吡 咯 材 料及 其 
制备 方法 和 应 用 ”分 析 后 得 到 的 候选 术语 结果 。 由 表 
3 和 表 4 可 见 ,n-gram 方法 虽然 包含 所 有 正确 候选 术 
语 ,但 是 存在 错 选 候选 术语 过 多 的 问题 ;名 词 短语 分 块 
方法 则 会 造成 漏 选 问题 ;词性 模式 匹配 方法 同时 存在 
漏 选 且 错 误 候 选 术语 过 多 等 问题 ;相对 而 言 ,本文 提出 
的 基于 依存 句法 分 析 的 方法 能 够 找到 较 多 正确 的 术 
语 , 且 错误 术语 相对 较 少 ,为 后 续 候选 术语 排序 打下 坚 
实 基础 。 


表 3 中 文 专利 候选 术语 选取 方法 比较 示例 1 


方法 n-gram(n =2 ~4) 名 词 短 语 分 块 词性 模式 匹配 基于 依存 句法 分 析 方 法 
正确 候选 术语 四 氧化 铁 纳米 复合 材料 纳米 复合 材料 四 氧化 铁 
> 纳米 复合 材料 石墨 燃 纳米 复合 材料 石墨 燃 纳米 复合 材料 纳米 复合 材料 
>< 石墨 燃 纳米 复合 材料 石墨 燃 纳米 复合 材料 
二 革 侠 选 术语 主要 用 于 石墨 烯 纳米 石墨 烯 纳米 四 氧化 铁 负载 氨 
em 于 制备 铁 负载 铁 负载 氨 
二 制备 四 氧化 氮 掺 杂 负载 所 
铁 负载 负载 所 石墨 烯 纳米 
© 负载 毛 挫 杂 石墨 燃 
氨 摊 杂 摊 杂 石墨 烯 纳米 
摊 杂 石墨 烯 铁 负 载 氮 
石墨 烯 纳米 氨 掺 杂 石墨 燃 
主要 用 于 制备 摊 杂 石墨 电 纳米 复合 材料 
用 于 制备 四 氧化 负载 氨 摊 杂 石墨 燃 
制备 四 氧化 铁 
四 氧化 铁 负载 
铁 负载 氨 
负载 氨 摊 杂 
氮 挨 杂 石墨 燃 
掺 杂 石墨 烯 纳米 
主要 用 于 制备 四 氧化 
于 制备 四 氧化 铁 
制备 四 氧化 铁 负载 
四 氧化 铁 负载 氨 
铁 负载 氮 挫 杂 
负载 氮 摊 杂 石墨 燃 
氮 摊 杂 石墨 烯 纳米 
掺 杂 石墨 烯 纳米 复合 材料 
漏 选 候选 术语 (无 ) 四 氧化 铁 四 氧化 铁 (无 ) 
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表 4 中 文 专利 候选 术语 选取 方法 比较 示例 2 
名 词 短 ”词性 模式 ”基于 依存 句 


方法 "am(n=2~4) 。 滞 分 所 。 匹配 。 法 分 析 方法 
正确 候选 术语 聚 吡咯 (无 ) (无 ) 聚 吡咯 
错误 候选 术语 共 所 杂 制备 方法 “ 聚 吡咯 材料 
共 摊 杂 聚 此 
共 氛 杂 聚 吡 咯 
摊 杂 聚 吡咯 材料 
摊 杂 聚 吡 
掺 杂 聚 吡咯 《无 ) 
摊 杂 聚 吡咯 材料 
聚 此 咯 材料 
咯 材料 
制备 方法 
漏 选 候选 术语 (无 ) 聚 叱 咯 “ 聚 吡咯 (无 ) 


4 贡 数据 集 
[中 为 了 验证 提出 模型 的 可 行 性 与 有 效 性 ,本 文选 取 
在 对 睛 专利 文献 进行 实验 。 石 墨 烯 是 已 知 材料 中 最 薄 
的 与 种 , 因 其 具有 独特 的 结构 , 集 优异 的 光学 ,化 学 \ 电 
学 上 ) 学 等 特征 于 一 身 , 迅 速成 为 物理 学 .化 学 和 材料 
党 等 领域 最 热门 的 研究 主题 之 一 。 石 墨 烽 也 被 认定 为 
新 刑 潜力 材料 ,具有 可 观 的 经 济 效益 和 广泛 的 产业 化 
A 启 科 前景 ,可 广泛 应 用 于 新 型 复合 材料 . 储 能 装置 . 电 
要 :起 灵 敏 传感器 .新 型 催化 剂 等 领域 。 实 验 基 于 中 国 
国家 知识 产权 局 专利 数据 库 ,以 “石墨 燃 " 关 键 词 检索 
中 狠 近 5 年 来 (2014 - 2018 年 ) 的 有 效 中 国 发 明 公开 
专机 (检索 日 期 为 2018 年 11 月 15 日 ) , 共 获得 6 445 
条 窒 效 中 国 发 明 公开 专利 ,以 其 题名 和 摘要 作为 专利 
文中 数据 集 。 
4. 人 评估 标准 

鉴于 专利 文本 数据 较 多 ,采用 准确 率 作为 评估 指 
标 , 即 评估 被 抽取 的 前 N 条 术语 的 正确 性 : 


， 正确 抽取 的 术语 数 | 
准确 率 = “抽取 的 术语 数 I 


本 实验 NN 分 别 取 200 -2 000 ,采用 人 工 方式 对 实 
验 结果 进行 判断 ,为 了 避免 主观 性 和 领域 知识 的 局 限 
性 ,利用 百度 百科 维基、 互动 百科 等 知识 网 站 ,结合 
家 评估 的 办 法 判断 被 抽取 术语 的 正确 性 。 

4.3 实验 结果 

4.3.1 候选 术语 选取 方法 对 术语 抽取 效果 影响 比较 
实验 首先 使 用 典型 的 候选 术语 选取 方法 与 本 文 提出 
的 方法 进行 比较 , 欲 比较 的 候选 术语 选取 方法 如 下 : 

(1)n-gram” : 先 去 除 停 用 词语 义 信息 较 少 的 词 
(如 助词 .语气 词 等 )、 人 工 选 择 构 词 能 力 较 差 的 词 
(如 ,发 明 , 方 法 等 ) ,得 到 文本 串 片 段 ,然后 进行 遍历 


x 100% 
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得 到 所 有 n 元 连续 单词 序 ,实验 设 定 n=2 -6。 
(2)NP :名词 短语 分 块 方法 认为 术语 的 词性 规 

则 通常 遵循 特定 的 排列 模式 ,如 “形容 词 + 名 词 "“ 和 名 

词 + 名 词 ” 模 式 。 实 验 使 用 的 正则 表达 式 为 (al n) 


no 


(3)pos1' :使 用 表 5 所 示 的 词性 模式 匹配 规则 
选取 中 文 候选 术语 。 
表 5 词性 模式 匹配 规则 5 
长 度 词性 模式 匹配 规则 


2 词 n+nn+tvv+tna+n\d+nb+n 


3 词 n+n+nv+n+nn+v+tinv+tv+nb+v+nn+m+n 


4 词 n+n+n+nn+n+v+nv+n+n+nv+n+v+nn+v+v+nYV 


+v+ntnv+n+b+n 


5 词 v+v+n+n+nd+v+n+n+nm+v+m+n+nb+v+n+v+n、 


n+n+v+n+n.atn+v+n+n 


6 词 n+t+nt+ct+wm+n+t+nnt+n+wntctvn+t+nntntut+b+vnt+n.vn 


+n+vntctwn+nl+t+wn+k+nt+wn+innt+wn+tutntwm+n 


(4)pos2"” :使 用 表 6 所 示 的 词性 模式 匹配 规则 


选取 中 文 候选 术语 。 
表 6 词性 模式 匹配 规则 
长 度 词性 模式 匹配 规则 
2 词 n+nw +Dn 
3 词 n+n+nn+b+n 
4 词 b+m+n+nb+n+n+n 
5 词 n+n+n+v+nm+n+b+vn+Dn 
6 词 b+n+b+n+n+nmn+n+u+b+vn+n 


(5)dep :本 文 第 3 节 提 出 的 基于 依存 句法 分 析 的 
候选 术语 选取 方法 。 
为 了 进行 评估 ,实验 使 用 常见 的 两 种 候选 术语 排 
序 算法 C-value 和 PMI 进行 候选 术语 排序 。 总 的 ,将 欲 
使 用 的 中 文 专利 术语 抽取 方法 分 为 两 组 ,如 表 7 所 示 : 
表 7 和 欲 比较 中 文 专利 术语 抽取 方法 


候选 术语 


候选 术语 


组 号 py 术语 抽取 方法 表示 
让 由 万 字 7 法 
先 取 方 法 排序 方法 
第 一 组 n-gram C-value n-gram + C-value 
P NP + C-value 
posl posl + Cvalue 
pos2 pos2 + C-value 
dep dep + C-value 
第 二 组 n-gram PMI n-gram + PMI 
P NP + PMI 
posl posl + PMI 
pos2 pos2 + PMI 
dep dep + PMI 


实验 结果 如 图 4 和 5 所 示 。 图 4 为 第 一 组 基于 C- 
value 候选 术语 排序 的 不 同 候选 术语 选取 方法 比较 结 
果 。 由 图 4 可见 ,在 5 种 候选 术语 选取 方法 中 ,n-gram 
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+ C-value 的 准确 率 、 召 回 率 和 下 值 均 最 低 ,例如 ,在 N 
=1 000 时 ,其 准确 率 仅 为 35.75% ;NP + C-value 方法 
的 准确 率 较 n-gram + C-value 有 所 提升 ,如 在 N=1 000 
时 ,其 准确 率 较 n-gram + C-value 方法 提升 了 11.03% ， 
但 低 于 posl 和 pos2 两 种 方法 ;posl + C-value 和 pos2 + 
C-value 方法 的 准确 率 类 似 ,pos2 + C-value 优 于 posl + 
C-value ,pos2 + C-value 方法 在 N =1 000 时 ,其 准确 率 
较 n-gram + C-value 方法 分 别提 升 了 13. 60% 和 17. 
58% ;本 文 提出 的 基于 依存 句法 分 析 的 方法 获得 了 最 
高 的 准确 率 ,如 在 N =1 000 时 ,准确 率 比 n-gram +C- 
value 提高 了 24.37% 。 在 第 二 组 以 PMI( 图 5 ) 作为 候 
选 术语 排序 方法 的 比较 中 ,得 到 了 类 似 的 结果 ,n-gram 
方法 准确 率 最 低 , NP 次 之 ,posl 与 pos2 优 于 NP, dep 
加 大 效 得 最 好 的 准确 率 。 由 两 组 实验 结果 可 以 看 出 ， 
相 突 提出 的 基于 依存 句法 分 析 的 中 文 候选 术语 选取 广 
涛 上 明显 优 于 传统 的 候选 术语 选取 方法 ,能 够 获得 更 高 
的 弄 文 专利 术语 抽取 准确 率 。 
ew] 


n-gram+C—value 
一 E 一 NP+C-value 
一 一 pos1+C-value 
一 衬 一 pos2+C-value 
一 全 一 dep+C—value 
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图 5 第 二 组 基于 PMI 的 不 同 候选 术语 选取 
方法 准确 率 比较 


4.3.2 ”候选 术语 选取 与 候选 术语 排序 对 术语 抽取 效 
果 影 响 比 较 无 监督 术语 抽取 方法 通常 包括 候选 术语 
选取 和 候选 术语 排序 两 个 步 又 ,目前 的 相关 人 研究 主要 
集中 于 候选 术语 排序 算法 改进 上 。 本 部 分 尝试 探究 候 
选 术 语 选 取 与 候选 术语 排序 对 最 终 中 文 专利 术语 抽取 
准确 率 的 影响 程度 。 

Cwalue 和 PMI 是 两 类 较为 典型 的 候选 术语 排序 
度量 方法 ,有 和 较 多 的 研究 与 改进 方法 。 因 此 ,本 文采 用 
传统 候选 术语 选取 方法 中 效果 较 好 的 pos2 方法 ( 即 ， 
使 用 表 5 所 示 的 词性 匹配 规则 方法 选取 候选 术语 ) ,使 
用 pos2 和 C-value 作为 第 一 组 术语 抽取 的 基准 方法 ， 
使 用 pos2 和 PMI 作为 第 二 组 术语 抽取 的 基准 方法 。 
比较 分 别 改进 候选 术语 选取 方法 和 改进 候选 术语 排序 
方法 对 中 文 专利 术语 抽取 准确 率 的 影响 程度 。 具 体 欲 
比较 的 方法 如 表 8 所 示 : 

表 8 和 欲 比较 的 改进 候选 术语 选取 方法 与 
候选 术语 排序 方法 


候选 术语 候选 术语 


组 号 方法 类 型 选取 方法 排序 方法 术语 抽取 方法 表示 
第 一 组 基准 方法 pos2 Cnwalue pos2 + C-value 
改进 候选 术语 排序 方法 pos2 PCC-value pos2 +PCC-value 
pos2 STC-value & pos2 +STC-value 
改进 候选 术语 选取 方法 ”dep Cvalue dep + C-value 
第 二 组 基准 方法 pos2 PMI pos2 + PMI 
改进 候选 术语 排序 方法 ”pos2 PMIk pos2 + PMIk 
pos2 EMI pos2 +EMI 
改进 候选 术语 选取 方法 ”dep PMI dep + PMI 


表 8 第 一 组 比较 方法 中 ,PCC -value05l 和 STC -val- 
ueDgl 为 对 C-value 方法 的 改进 。 其 中 PCC -value 方法 
将 候选 术语 的 文档 频次 融入 C-value 计算 之 中 ,以 进行 
候选 术语 排序 ;STC -value 方法 利用 与 候选 术语 有 相同 
术语 部 件 的 相似 候选 术语 信息 ,以 提高 C-value 术语 抽 
取 效 果 。 

表 8 第 二 组 比较 方法 中 ,PMIK ”和 EMI ”为 对 
PMI 方法 的 改进 。 其 中 ,PMT 方法 使 用 联合 概率 因子 ， 
以 改善 PMI 方法 过 高 评估 低频 候选 术语 强度 的 问题 ; 
EMI 方 法 使 用 增强 互信 息 EMI 排序 候选 术语 ,改善 互 
信息 对 称 性 不 能 很 好 衡量 术语 各 成 分 内 部 的 紧密 程度 
问题 。 

实验 结果 如 图 6、7 所 示 。 由 图 6 可 见 ,pos2 +PCC 
-value 和 pos2 + STC -vlue 均 略 高 于 pos2 + C-value ,表明 
通过 对 C-value 的 改进 ,提高 了 专利 术语 抽取 的 准确 
性 ,例如 ,N =1 000 时 ,分 别 比 pos2 + C-value 提高 了 
3.73% 和 4.83% ; 而 dep +C-value 方法 的 准确 率 值 最 
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图 7 第 二 组 改进 的 候选 术语 选取 方法 和 改进 的 


高 , 比 pos2 + C-value 提高 了 6.77%。 同 样 地 ,由 图 7 
可 见 ,第 二 组 实验 得 到 了 与 第 一 组 实验 类 似 的 结果 , 例 
如 当 N=1 000 时 ,pos2+PMIk 和 pos2 + EMI 比 pos2 + 
PMI 分 别提 高 了 1.35% 和 1.93% ,而 dep + PMI 则 比 
pos2 + PMI 提高 了 3.76%。 两 组 实验 表明 ,相对 于 目 
前 研究 主要 针对 专利 术语 抽取 的 第 二 个 阶段 , 即 候选 
术语 排序 方法 的 改进 ,第 一 个 阶段 的 改进 会 对 专利 术 
语 抽 取 产 生 较 大 的 影响 ,从 而 影响 后 续 专利 术语 排序 ， 
以 及 最 终 的 专利 术语 抽取 的 准确 性 。 因 此 ,第 一 阶段 
的 专利 候选 术语 排序 应 该 引起 研究 者 的 足够 重视 。 

4.3.3 候选 术语 选取 方法 具体 分 析 最 后 , 表 9 列 出 
了 n-gram 、NP posl .pos2 和 dep 选取 的 前 10 个 最 高 频 
次 的 候选 术语 ,其 中 正确 的 术语 使 用 粗 体 表示 。 由 表 
9 可 见 ,n-gram 去 除 一 些 不 必要 的 词 ,使 用 词 串 的 方式 
选取 候选 术语 ,造成 较 多 的 噪声 数据 ;使 用 NP 方法 虽然 
能 够 过 滤 一 些 名 am 方法 产生 的 噪声 数据 ,但 是 仍 会 包 
含 一 些 噪声 ,更 为 重要 的 是 一 些 正确 术语 可 能 被 漏 选 ， 
如 "氧化 石墨 烦 ”, 因 为 “氧化 "为 动词 ,而 造成 漏 选 ;使 
用 posl 和 pos2 的 方法 则 在 一 定 程度 上 克服 了 NP 方法 
问题 ,包含 了 更 加 丰富 的 词性 ,但 是 这 样 在 保证 不 漏 选 
的 前 提 下 ,又 带 来 了 额外 的 噪声 数据 ,如 “制备 石墨 烯 ” 
因为 其 构成 方式 也 是 “动词 + 名 词 ”而 被 选 为 候选 术语 ; 
而 本 文 提出 的 dep 方法 则 能 较 好 地 克服 这 些 问题 ,在 不 
需要 手工 干预 的 前 提 下 , 选 出 更 加 准确 的 候选 术语 ,区 


sn 


办 ii 服 动词 等 一 些 词 的 噪声 干扰 ,为 后 续 候 选 专 利 术 语 排序 
它 英 定 坚实 基础 ,最 终 获 得 更 好 的 专利 术语 抽取 效果 。 
(®) 表 9 前 10 个 不 同 候选 术语 选取 方法 选取 
序号 n-gram NP posl pos2 dep 
1 氧化 石墨 烯 离子 电池 氧化 石墨 烯 氧化 石墨 烯 氧化 石墨 烯 
2. 石墨 烯 纳米 简单 工艺 制备 石墨 烯 制备 石墨 烯 复合 材料 
3 石墨 烯 复合 锂 离 子 电池 掺 杂 石墨 烯 挫 杂 石墨 烯 改 性 
4 制备 石墨 烯 纳米 复合 材料 所 摊 杂 纳米 复合 材料 碳 纳米 
5 挫 杂 石墨 烯 优异 性 能 纳米 复合 材料 复合 电极 三 维 
6 工艺 简单 气相 沉积 还 原 氧化 制备 工艺 石墨 烯 纳米 
1 超级 电容 器 氟 乙烯 复合 电极 复合 薄膜 碳 纳米 管 
8 石墨 烯 量子 高 导电 纳米 颗粒 改 性 石墨 烯 衬 底 
9 氮 挨 杂 材料 领域 超声 分 散 碳 纳米 锂 离子 
10 石墨 烯 分 散 金属 基 制备 氧化 透明 导电 离子 电池 


依存 句法 分 析 通 过 语句 单位 内 词语 间 的 依存 关系 
揭示 词语 间 的 语义 修饰 关系 ,进而 实现 对 语义 的 理解 ， 
可 以 较为 有 效 地 弥补 单纯 依靠 词性 手段 难以 触及 深层 
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语义 关系 的 不 足 。 因 此 ,本 文 首次 将 依存 句法 分 析 引 
入 中 文 候选 术语 选取 研究 之 中 ,提出 基于 依存 句法 分 
析 的 中 文 专利 候选 术语 选取 方法 ,以 提高 中 文 专利 术 
语 抽 取 的 准确 性 。 方 法 主要 包括 依存 句法 分 析 、 剪 校 、 


ChinaXiv 合 作 期 刊 


俞 正 ， 陈 舌 ， 姜 金 德 , 等 . 基于 依存 句法 分 析 的 中 文 专利 候选 术语 选取 研究 [J]. 图 书 情报 工作 ,2019 ,63(18):109 - 118. 


生成 依存 子 树 等 三 个 主要 步骤 。 首 先 对 中 文 专利 进行 

依存 句法 分 析 , 得 到 依存 树 , 对 依存 树 进行 剪 校 ,去 除 

不 符合 要 求 的 依存 关系 ,生成 依存 子 树 , 从 中 选取 连续 

词 串 作为 候选 术语 ,以 抽取 中 文 专利 术语 。 本 文 提出 

的 基于 依存 句法 分 析 的 方法 能 够 找到 较 多 正确 的 术 

语 , 且 错 误 术 语 相 对 较 少 ,从 而 为 后 续 候 选 术语 排序 打 

下 坚实 基础 。 实 验 结 果 表 明 ,本 文 提出 的 基于 依存 名 

法 分 析 的 中 文 候选 术语 选取 方法 相对 而 言 , 明 显 优 于 

传统 的 候选 术语 选取 方法 ,能 够 获得 更 高 的 中 文 专 利 

术语 抽取 准确 率 。 相 对 于 目前 研究 主要 针对 专利 术语 

抽取 的 第 二 个 阶段 , 即 候选 术语 排序 方法 的 改进 ,第 一 

个 阶段 的 改进 会 对 专利 术语 抽取 产生 较 大 的 影响 ,从 

影响 后 续 专 利 术 语 排序 ,以 及 最 终 的 专利 术语 抽取 

的 准确 性 ,应 该 引起 研究 者 的 足够 重视 。 后 续 的 研究 

将 探索 如 何 建立 统一 标准 进行 中 文 专利 术语 抽取 正确 

性 评估 ,以 避免 人 工 评 估 带 来 的 主观 性 ,更 加 客观 地 评 

傅 可 种 中 文 专利 术语 抽取 方法 的 准确 性 。 
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bstract: [Purpose/significance | Aiming at the difficulties in making different pattern matching rules for different 


erition. Firstly, dependency syntax analysis was carried out on the Chinese patent text, from which dependency tree were 


olftaihed. Then, the dependency subtrees were generated by removing dependency relations which do not meet require- 
ments. At last, the continuous word strings were selected as candidate terms to extract Chinese patent terms，|[ Result/ 


usion | The experimental results show that compared with the existing related methods, the proposed method based 
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“全 民 数 字 阅 读 ” 未 来 可 期 


随 着 电子 出 版 业 的 繁荣 发 展 ,当今 已 进入 数字 化 阅读 的 新 时 代 , 阅 读 资源 随 着 dah “化 的 转型 。 阅 读 资 源 
从 最 早 的 结 强 记 事 到 纸 质 图 书 ,为 了 方便 存储 ,通过 影印 技术 将 纸 质 图 书 数字 化 存储 ,再 到 后 来 的 数字 文本 的 普及 ,如 今 的 阅读 资 
源 几乎 已 经 实现 了 全 面 的 数字 化 变革 ,几乎 所 有 发 布 的 阅读 物 都 有 数字 化 技术 的 参与 。 os 卖 资源 的 数字 化 ,阅读 方式 也 随 之 
进行 着 数字 化 的 演变 ,阅读 资源 的 数字 化 如 果 是 信息 发 展 的 根本 ,那么 阅读 方式 的 数字 化 就 是 人 类 接收 信息 方式 的 革命 ,数字 阅 

读 为 人 们 对 信息 的 获取 方式 带 来 了 前 所 未 有 的 发 展 。 


目前 ,全 国 提供 电子 书 阅读 服务 的 图 书馆 已 达到 95% 以 上 ,电子 书 资源 的 采购 率 每 年 都 在 增长 ,但 电子 书 资源 使 用 率 却 很 低 。 


秉持 " 知识 随 需 获 得 ,文化 深远 传播 " 的 核心 思想 ,2019 年 方正 阿 帕 比 立志 于 解决 图 书馆 电子 书 资源 利用 率 的 问题 ,从 而 研发 出 新 
一 代 释 文 数字 阅读 服务 平台 。 该 平台 基于 AI 智能 算法 提供 智能 推荐 .知识 学 习 数据 分 析 等 服务 。 其 针对 于 读者 和 管理 者 不 同 角 


bs 


色 的 需求 ,构建 用 户 前 台 与 管理 后 台 成 套 系统 为 读者 与 管理 者 提供 智能 化 的 服务 。 
馆 员 完全 可 以 通过 释文 数字 阅读 服务 平台 配套 的 后 台 管 理 系统 管理 自己 的 前 台 产品 。 释 文 管理 后 台 为 管理 者 提供 了 :中 运 
营 管理 :对 焦点 图 .推荐 内 容 进 行 管理 , 亦 可 快速 制作 书 单 专题 。@ 资 源 管理 :可 详细 了 解 资源 被 阅读 情况 及 读者 评价 , 亦 可 对 区 
书 进行 上 下 架 的 管理 。(3) 读 者 管理 :了 解读 者 详细 信息 ,对 读者 账号 进行 管理 ,管控 读者 的 阅读 权限 。 外 数据 统计 :数据 统计 可 视 
行 更 好 的 管理 。@ 权 限 管理 :创建 不 同 管理 角色 ,合理 分 配 不 同 馆 员 的 管理 内 容 , 可 提高 工作 效率 。 
起 平台 成 套 服 务 系统 ,可 全 方位 地 满足 读者 与 管理 者 的 需求 ,可 切实 为 图 书馆 提升 电子 书 资源 的 利用 率 。 
(来 源 : wu 
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化 ,通过 数据 进行 
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